3章 RoBERTaモデルのゼロからの事前訓練 - nikkie-memos

3章 RoBERTaモデルのゼロからの事前訓練

https://github.com/PacktPublishing/Transformers-for-Natural-Language-Processing/blob/main/Chapter03/KantaiBERT.ipynb

KantaiBERT（transformerモデル）を訓練

KantaiBERTのデータセット

!pip list | grep -E 'transformers|tokenizers'

tokenizers 0.12.1

transformers 4.18.0

ByteLevelBPETokenizerの訓練 & 保存

tokenizerによるエンコード（👈RoBERTaの訓練には不要）

transformersのRoBERTaモデル訓練の準備 & 訓練

訓練したRoBERTaモデルでマスクを埋めてみる

訓練したRoBERTaモデルのエクスポート

誤植や誤りと思われる箇所（Transformerによる自然言語処理 3章）

https://youtu.be/9l3OX0uKYN8

ref: https://github.com/PacktPublishing/Transformers-for-Natural-Language-Processing/issues/3#issuecomment-873001691